组合优化已应用于从航空航天到交通规划和经济学等众多领域。其目标是在有限的可能性集合中找到最佳解决方案。组合优化面临的众所周知的挑战是状态空间爆炸问题:可能性的数量随着问题规模的增加而呈指数增长,这使得解决大问题变得困难。近年来,深度强化学习 (DRL) 已显示出其在设计专门用于解决 NP 难组合优化问题的良好启发式方法方面的前景。然而,当前的方法有两个缺点:(1)它们主要关注标准旅行商问题,不能轻易扩展到其他问题,(2)它们仅提供近似解,没有系统的方法来改进它或证明最优性。在另一个背景下,约束规划 (CP) 是解决组合优化问题的通用工具。基于完整的搜索过程,如果我们允许执行时间足够长,它将始终找到最佳解决方案。一个关键的设计选择是分支决策,它决定了如何探索搜索空间,这使得 CP 在实践中变得不可或缺。在这项工作中,我们提出了一种基于 DRL 和 CP 的通用混合方法来解决组合优化问题。我们方法的核心是基于动态规划公式,它充当了两种技术之间的桥梁。我们通过实验表明,我们的求解器可以有效解决两个具有挑战性的问题:带有时间窗口的旅行商问题和 4 矩投资组合优化问题。获得的结果表明,引入的框架优于独立的 RL 和 CP 解决方案,同时与工业求解器具有竞争力。
主要关键词
![arXiv:2006.01610v1 [cs.AI] 2020 年 6 月 2 日PDF文件第1页](/bimg/d/d437e6b629db076e565fd00d2e8403a2347fb78f.webp)
![arXiv:2006.01610v1 [cs.AI] 2020 年 6 月 2 日PDF文件第2页](/bimg/e/e983eba452a605402ce44e3ece8e4bf4114958c6.webp)
![arXiv:2006.01610v1 [cs.AI] 2020 年 6 月 2 日PDF文件第3页](/bimg/8/87879ed96af4aa73ebb1ddd472cae81ec6d2b0c4.webp)
![arXiv:2006.01610v1 [cs.AI] 2020 年 6 月 2 日PDF文件第4页](/bimg/8/81fb1339116cf281fa7a4f0e5e0ed512e0f7d203.webp)
![arXiv:2006.01610v1 [cs.AI] 2020 年 6 月 2 日PDF文件第5页](/bimg/b/b828518ca20678867ed4d172403f4f1a754d83fa.webp)
